@胡韧奋等:《现代汉字形声字声符在普通话中的表音度测查》
总结😁
比较简单直观的一篇文章。重点在于通过语言学的知识设定了表音度测查的规则,制定了权重、距离的算法
现代汉字形声字声符在普通话中的表音度测查
摘要
“形声”作为一种重要的造字方式,构筑了汉字家族中最为庞大的一支。造字之初,形声字以形符表义,以声符表音。随着时代的发展,声符的表音度渐渐发生变化,为人们准确地标音读字造成了一定困难。该文试采用聚类分析的方法,以普通话中3500常用汉字为对象,结合语言学理论和计算机知识,依据声符表音程度相同、相似和不同制定详细分级标准,并得到每一层级的形声字表和百分数据,从而对现代汉字中形声字声符的表音度情况进行系统、直观而全面地呈现,以期为现代汉字规范的制定和汉语教学提供一定的参考和佐证。
研究背景与意义
- 形声字是汉字的主要构成形式:
- 甲骨文中占比约20%
- 《说文解字》中占比80%
- 现代汉字中占比85%以上
- 声符表音度随语音演变而变化,导致读音预测困难,尤其对汉语学习者影响显著
- 研究目的:
- 系统测查声符表音度
- 为汉字规范和教学提供数据支持
相关研究回顾
- 历史研究:
- 1965年,叶楚强统计《新华字典》,声符完全表音占比23.6%,方法依赖人工计数
- 1978年,周有光测算声符有效表音率39%,但未区分形声字与会意字
- 1990年代,李燕和康加深引入声韵调权重赋值(声母/韵母0.45,声调0.1等)但是没有考虑到声母和韵母的影响效果不同,而且声韵母发音之间也存在相关性相似性
- 1999年,王小宁分析2,500常用字,64.4%形声字声符可提示读音。但是没有具体的分类讨论
- 2008年,种一凡基于1,945个形声字,提出音义并重分类
- 研究不足:
- 未区分声母与韵母影响权重
- 未考虑语音流变导致的相似性
- 缺乏对每个形声字声符表音度的测算
- 依赖人工统计,效率低
数据与方法
- 数据来源:
- 《现代汉语常用字表》3,500字(2,500常用字+1,000次常用字)
- 常用字覆盖率达99.48%
- 判定模型:
- 表音度公式:
:声母相似度,权重 :韵母相似度,权重 :声调相似度,权重
- 聚类分析基于声、韵、调三维相似度距离:
- 表音度公式:
相似度判定标准
- 声母相似度:
- 基于发音部位(P)和方法(M)的带权无向图
- 计算公式:设
代表从Mi到Mj的最短距离。
- 基于发音部位(P)和方法(M)的带权无向图
- 韵母相似度:
- 分为介音(25%)、韵腹(50%)、韵尾(25%)
- 计算公式:设置参数c1、c2、c3来代表三个组成部分对韵母整体发音的影响程度,其值分别为25%、50%、25%。设两个韵母F1和F2,它们的介音、韵腹和韵尾分别为F11、F12、F13,F21、F22、F23,则两个韵母之间的相似度为
- 分为介音(25%)、韵腹(50%)、韵尾(25%)
- 声调相似度:
- 基于四声调值(55、35、214、51)的距离图
- 基于四声调值(55、35、214、51)的距离图
分析结果
- 样本:3,500常用字中2,305个形声字
- 声母相似度:
- 100%:1,314个
- 70%-100%:705个
- 35%-70%:32个
- 0%-35%:254个
- 韵母相似度:
- 100%:1,603个
- 70%-100%:211个
- 35%-70%:359个
- 0%-35%:132个
- 声调相似度:
- 100%:1,193个
- 70%-100%:366个
- 35%-70%:517个
- 0%-35%:229个
- 表音度:
- 100%:749个
- 80%-100%:830个
- 50%-80%:539个
- 0%-50%:187个
结论与分级
-
分级标准:
-
局限:
- 参数设定具一定主观性,需进一步验证